AI012

深入探究大型语言模型

自主代理、RLHF与安全对齐

课程

第8课

讲师

AI助教

学习目标

分析GUI代理的架构组件，包括多智能体系统中的规划、决策和反思模块。
解释强化学习（RL）与基于人类反馈的强化学习（RLHF）的机制，特别是奖励模型和PPO在使代理行为与人类价值观对齐中的作用。
评估自主代理中的安全风险与可靠性问题，包括分布外（OOD）错误、越狱攻击及环境干扰。